探索數據中的關聯性時,我們需要找尋可能的因果關係時,我們可以使用假想的方式建立該預測模型。
情境:當你是一家零售商的數據分析師,而你負責分析銷售數據,並需找出影響銷售的各種因子,接著你收集了以下變數的數據:
1.廣告支出:每月產品在廣告上的支出。
2.促銷活動(二進制變數):標記商品是否有促銷活動,可備註促銷期間。
3.銷售量:產品的每月銷售量。
4.季節(分季節變數):以季節區分,將一年分為四個季度(春、夏、秋、冬)。
分析步驟:
step1.敘述性統計分析:首先先計算每個變數的平均值、中位數、標準差等敘述性統計數據,加以了解數據的分佈。
step2.利用散點圖和相關性分析:繪製廣告支出與銷售量之間的散點圖,並計算它們之間的相關性係數,以確定它們之間是否存在關聯。如果相關性較高,可能表明廣告支出對銷售量有影響。
step3.因果關係的猜測:基於領域知識,你可能假設廣告支出對銷售量有正面影響,因為更多的廣告可能會吸引更多的顧客。
step4.實驗設計:接著進行實驗,例如:增加廣告支出,然後觀察銷售量是否上升。這可以幫助確定廣告支出與產品銷售量是否存在因果關係。
step5.因果關係模型:使用迴歸分析或因果模型,將廣告支出作為自變數,銷售量作為因變數,並進行統計檢驗,加以確定廣告支出是否對銷售量有統計上的顯著影響。
step6.因果圖:建立因果圖,將廣告支出、促銷活動、季節等因素之間的關係可視化,以確定可能的因果路徑。
step7.利用機器學習方法:如果數據量較大,你還可以使用機器學習方法來預測銷售量,並確定哪些因素對預測性能有最大影響。
透過簡單的範例,雖實際的數據分析更為複雜,剛開始學習時,簡單的步驟裡也蘊含著基礎邏輯,可以了解如何探學數據中的關聯性與可能的因果關係,領域知識、統計方法和機器學習技術的結合可以提升此分析過程的可靠性與洞察力。